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摘 要 : [目的 /意义 ] 天 然 牧场 下 放牧 牲畜 数量 的 准确 检测 是 规模 化 养殖 场 改 造 升 级 的 关键 。 为 满足 规模 化 养殖 
场 对 大 批 羊 群 实现 精准 实时 的 检测 需求 ， 提 出 一 种 高 精度 、 易 部 署 的 小 目标 检测 模型 CSD-YOLOv8s (CBAM SP- 
PFCSPC DSConv-YOLOv8s)， 实 现 无 人 机 高 空 视角 下 小 目标 羊 只 个 体 的 实时 检测 。[ 方 法 ] 首先 ， 使 用 无 人 机 获取 
天 然 草原 牧场 中 包含 不 同 背 景 及 光照 条 件 下 的 羊 群 视频 数据 并 与 下 载 的 部 分 公开 数据 集 共 同 构成 原始 图 像 数 据 。 
通过 数据 清洗 和 标注 整理 生成 羊 群 检测 数据 集 。 其 次 ， 为 解决 羊 群 密集 和 相互 遮挡 造成 的 羊 只 检测 困难 问题 ， 基 
于 YOLO (You Only Look Once) v8 模型 构建 具有 跨 阶段 局 部 连接 的 SPPFCSPC (Spatial Pyramid Pooling Fast-CSPC ) 
模块 ， 提 升 网 络 特征 提取 和 特征 融合 能 力 ， 增 强 模 型 对 小 目标 羊 只 的 检测 性 能 。 在 模型 的 Neck 部 分 引入 了 卷 积 注 
意 力 模块 (Convolutional Block Attention Module, CBAM)， 从 通道 和 空间 两 个 维度 增强 网 络 的 抗 干扰 能 力 ， 提 升 网 
络 对 复杂 背景 的 抑制 能 力 ， 进 一 步 提 高 对 密集 羊 群 的 检测 性 能 。 最 后 ， 为 提升 模型 的 实时 性 和 可 部 署 性 ， 将 Neck 
网 络 的 标准 卷 积 改 为 具有 可 变化 内 核 的 轻 量 卷 积 C2f{_DS (C2f-DSConv) 模块 ， 减 小 了 模型 的 参数 量 并 提升 了 模型 
的 检测 速度 。[ 结 果 和 讨论 ] YOLO, Faster R-CNN (Faster Regions with Convolutional Neural Networks) 及 其 他 经 
典 网 络 模型 相 比 ， 改 进 后 的 CSD-YOLOv8s 模 型 在 检测 速度 和 模型 大 小 相当 的 情况 下 ， 在 羊 群 检测 任务 中 具有 更 高 
的 检测 精度 。Precision 达到 95.2%, mAP IAF 93.1%, FPS (Frames Per Second) 达到 87 Vs， 并 对 不 同 遮 挡 程 度 的 
羊 只 目标 具有 和 较 强 的 鲁 棒 性 ， 有 效 解决 了 无 人 机 检测 任务 中 因 羊 只 目标 小 、 背 景 噪声 大 、 密 集 程度 高 导致 羊 群 漏 
检 和 误 检 严重 的 问题 。 公 开 数 据 集 验 证 结果 表明 ， 提 出 的 模型 对 其 他 不 同 物体 的 检测 精度 均 有 所 提高 ， 特 别 是 在 
羊 只 检测 方面 ， 检 测 精度 提升 了 9.7%。[ 结 论 ] 提出 的 CSD-YOLOv8s 在 无 人 机 图 像 中 更 精准 地 检测 草原 放牧 牲 
畜 ， 对 不 同 程度 的 聚集 和 遮挡 目标 实现 精准 检测 ， 且 具有 和 较 好 的 实时 性 ， 为 养殖 场 大 规模 畜 禽 检测 提供 了 技术 支 
撑 ， 具 有 广泛 的 应 用 潜力 。 
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引 
在 草原 牧场 的 日 常 管理 中 ， 牧 群 的 便捷 准确 检 
测 是 牧场 养殖 者 做 出 科学 决策 “、 提 高 牧场 收益 的 
重要 保障 。 早 期 阶段 ,牲畜 调查 采用 有 人 驾驶 飞机 
方式 。 这 种 方式 有 效 地 减少 了 时 间 投 入 ,但 由 于 高 
昂 的 费用 、 需 要 合格 的 飞行 员 及 相关 飞机 设备 等 限 
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制 ， 应 用 于 牧场 受到 一 定制 约 。 与 有 人 驾驶 的 直 升 
机 相 比 ， 无 人 机 具有 更 大 的 灵活 性 。 牧 场 主 只 需 一 
台 无 人 机 ， 就 能 每 天 监测 牧场 的 牲畜 ， 既 能 降低 成 
本 ， 又 减轻 了 工作 负担 ， 为 牧场 管理 提供 了 便捷 经 
济 的 解决 方案 。 如 今 ， 无 人 机 已 广泛 应 用 于 草原 牧 
场 放 牧 管理 中 。 例 如 ， 赵 建 敏 等 ”使 用 无 人 机 对 
天 然 牧场 中 的 羊 群 数量 进行 监测 。 在 羊 群 密集 场景 
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下 实现 了 很 好 的 羊 群 数量 估计 。 但 应 用 于 复杂 背景 
下 的 草原 牧场 羊 群 检测 时 ， 由 于 数据 集 场景 较为 单 
一 、 目 标尺 度 变化 不 大 ， 因 此 难以 解决 羊 群 的 漏 检 
和 误 检 问题 。Li 等 ”将 无 人 机 作为 “牧羊 犬 ” ， 用 
THOER o Herlin E ” 则 将 无 人 机 与 虚拟 电子 围 
栏 结合 实现 高 效 放 牧 。 无 人 机 捕 提 的 图 像 与 机 器 学 
习 相 结合 ， 能 够 避免 传统 地 面 监测 过 程 中 环境 及 人 
为 因素 的 影响 “， 可 以 为 牧场 主 提供 更 加 准确 和 全 
面 的 信息 。 然 而 ， 无 人 机 羊 群 检测 会 受到 背景 复 
森 、 光 照 条 件 多 变 及 小 目标 等 因素 的 影响 。 针 对 上 
述 问 题 ， 人 研究 有 关 算 法 模型 是 无 人 机 羊 群 检测 的 
关键 。 

近年 来 ,深度 学 习 在 小 目标 检测 领域 得 到 广泛 
MHo WAHE | 基于 拆 分 不 同 尺度 的 数据 图 像 ， 
用 迁移 学 习 生 成 模型 的 方法 提高 小 目标 检测 能 
Maktab 等 "采用 反 卷 积 和 浅 层 特征 融合 的 方法 提 
升 无 人 机 小 目标 检测 的 精度 。 上 述 研究 在 小 目标 检 
测 方面 具有 重要 意义 ,提高 了 检测 准确 度 。 然 而 ， 
考虑 到 无 人 机 上 的 计算 资源 有 限 ， 因 此 提升 模型 检 
测 精 度 并 能 实时 检测 是 无 人 机 对 地 小 目标 检测 的 关 
键 点 之 一 。 此 外 ， 针 对 羊 群 目 标 检测 ，Zhao 等 ” 
提出 两 阶段 的 实例 分 割 模型 ， 提 高 密集 羊 群 的 检测 
精度 。 然 而 在 无 人 机 羊 群 检 测 中 ， 无 人 机 飞行 高 度 
较 高 ， 羊 群 所 占 像 素 少 ， 难 以 提取 有 用 和 易 区 分 的 
特征 。Sarwar 等 ”使 用 基于 区 域 卷 积 神经 网 络 模型 
对 无 人 机 视角 下 的 绵羊 进行 检测 ， 在 自制 的 数据 集 
上 通过 实验 设置 最 佳 的 训练 参数 ， 检 测 精 度 达到 
95.6%。 Wang 等 '" 构建 了 增强 的 CSPDarknet 
(Cross Stage Partial Darknet) 和 加 权 聚 合 特征 重 提 
取 金 字 塔 模块 ， 提 高 了 无 人 机 图 像 中 羊 群 的 检测 性 
能 。 上 述 方法 都 提高 了 羊 群 检测 精度 ， 然 而 当 羊 群 
处 于 复杂 背景 下 并 发 生 聚 集 和 遮挡 时 ， 小 目标 的 羊 
只 检测 变 得 困难 。 

在 对 无 人 机 图 像 中 的 牧场 羊 群 进行 检测 时 ， 与 
地 面 图 像 检测 存在 明显 差异 ， 主 要 有 以 下 几 个 难 
点 。 首 先 ， 由 于 无 人 机 飞行 视野 角度 较 大 ， 羊 只 目 
标 仅 占有 很 少 的 像素 ,难以 提取 有 用 和 易 区 分 的 特 
征 进行 检测 。 其 次 ,无 人 机 图 像 中 光照 条 件 多 变量 
包含 大 量 无 效 的 复杂 背景 ,存在 如 岩石 、 干 草 堆 以 
及 树木 等 干扰 物体 。 最 后 ， 由 于 羊 只 姿势 变化 以 及 
运动 状态 的 变化 ， 在 无 人 机 图 像 中 产生 不 同 的 外 观 
形态 进一步 增加 了 检测 难度 。 为 了 解决 上 述 问 题 ， 
本 研究 设计 了 一 种 无 人 机 视角 下 羊 群 检测 模型 
CSD-YOLOv8s (CBAM SPPFCSPC DSConv-YO- 


LOv8s)。 主 要 贡献 如 下 。 

1) 针对 天 然 草原 牧场 下 ， 无 人 机 对 地 羊 群 检 
测 任务 中 所 面临 羊 只 目标 小 、 干 扰 物体 多 、 羊 群 聚 
集 和 遮挡 现象 导致 漏 检 和 误 检 严重 的 问题 ， 构 建 一 
种 跨 阶 段 特征 连接 的 SPPFCSPC (Spatial Pyramid 
Pooling Fast-CSPC) 结构 ， 该 结构 将 原始 特征 与 快 
速 空间 金字 塔 池 化 网 络 输出 特征 相 结 合 ， 充 分 保留 
模型 的 不 同 阶段 的 特征 信息 ， 有 效 地 解决 了 羊 群 目 
标 较 小 且 遮 挡 严重 问题 ， 提 升 模型 对 羊 群 小 目标 的 
检测 性 能 。 

2) 为 解决 羊 只 检测 任务 中 复杂 背景 区 域 较 大 
及 羊 群 密集 导致 的 羊 只 误 检测 问题 ， 在 特征 提取 结 
构 上 增加 基于 空间 和 通道 两 方面 增强 特征 信息 捕获 
的 注意 力 机 制 ， 在 空间 上 抑制 背景 信息 ， 在 通道 上 
聚焦 羊 只 目标 ， 提 高 模型 在 复杂 背景 和 不 同 光 照 条 
件 下 对 多 尺度 羊 群 的 检测 能 力 ， 使 得 模型 在 复杂 环 
境 下 对 羊 群 的 检测 能 力 得 到 进一步 的 提升 。 

3) 为 平衡 模型 的 检测 精度 和 检测 速度 ， 以 C2f 
模块 为 基础 ， 将 具有 可 变化 内 核 的 深度 可 分 离 卷 积 
引入 到 模型 中 ， 区 别 于 原 模型 的 C2f 卷 积 和 传统 的 
深度 可 分 离 卷 积 ， 提 出 的 模块 能 够 根据 输入 特征 自 
适应 地 选择 相应 的 卷 积 核 进行 特征 提取 ， 在 更 灵活 
地 解决 羊 群 检 测 过 程 中 输入 尺度 变化 问题 的 同时 ， 
减少 模型 的 参数 量 和 计算 量 ， 提 高 模型 的 推理 速 
度 ， 为 将 来 模型 的 应 用 提供 支持 。 


1 材料 与 方法 
1.1 小 目标 羊 群 数据 集 构建 


1.1.1 数据 来 源 

为 增加 样本 多 样 性 、 提 高 算法 对 不 同 环境 的 适 
应 能 力 ， 本 研究 数据 包括 两 部 分 。 一 部 分 为 2023 
年 7 月 在 内 蒙古 赤峰 市 圣 泉 生态 牧 业 有 限 公 司 牧 场 
采集 数据 ， 选 取 天 然 牧场 下 的 羊 群 作为 拍摄 对 象 。 
使 用 大 疆 MINI2 无 人 机 进行 视频 录制 。 将 录制 的 视 
频 通过 Python 的 Imageio 库 进行 分 帧 处理 ， 每 个 视 
频 获 得 300~900 张 独立 的 图 像 ， 共 计 15 876 张 。 另 
一 部 分 数据 为 RoboFlow 网 站 上 获取 的 小 目标 羊 只 
公开 数据 ， 共 计 7 328 张 图 像 。 两 种 数据 的 融合 形 
成 本 研究 数据 集 ， 提 升 模型 的 泛 化 能 

为 确保 所 采集 数据 的 图 像 质 量 ， 在 使 用 无 人 机 
进行 羊 群 图 像 数据 采 集 时 ， 需 要 综合 考虑 多 个 关键 
因素 以 确保 数据 的 有 效 性 。 首 先 ， 为 减少 光照 对 数 
据 的 影响 ， 本 研究 在 阴 天 及 晴天 等 不 同 状况 的 天 气 
下 ,分 别 在 中 午 和 傍晚 等 不 同时 段 内 进行 羊 群 视频 
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数据 的 采集 。 其 次 ， 考 虑 到 背景 的 多 样 性 ， 本 研究 
在 牧场 不 同 的 放牧 区 域 和 背景 下 进行 视频 录制 ， 确 
保 数据 的 多 样 性 和 代表 性 。 本 研究 在 上 述 时 间 和 场 
景 下 以 25~70m 的 高 度 录制 视频 。 总 计 录 制 33 个 


b. 示 例 帧 高 度 为 45 m 
图 1 无 人 机 不 同 高 度 采 集 的 羊 群 视频 示例 帧 图 像 
Fig. 1 Example frame images of sheep video captured by UAVs at different altitudes 
FAIR RRR TA a A, FRAT 
到 3 690 张 高 质量 的 图 像 ， 按 照 编号 0001~3690 进 
行 命名 。 数 据 分 布 情况 见 表 1， 数 据 集 部 分 数据 如 
图 2 所 示 。 


a. 示 例 帧 高 度 为 35m 


1.1.2 数据 处 理 

为 确保 数据 图 像 的 清晰 度 和 多 样 性 ， 删 除了 模 
糊 和 相似 度 较 高 的 图 像 ， 方 法 如 下 。 首 先 ， 离 散 化 
拉 普 拉 斯 算 子 (Laplace Operator) 的 二 阶 偏 导 数 ， 
并 通过 差分 近似 得 到 离散 算 子 。 著 加 这 些 算 子 形成 
拉 普 拉 斯 矩阵 (Laplacian Matrix)， 即 卷 积 核 。 其 
次 ， 用 该 卷 积 核 依次 计算 所 有 图 像 方差 .将 计算 结 
FAG ric (A (70) 进行 比较 ,删除 低 于 阅 值 的 图 
像 。 在 处 理 图 像 相似 度 时 ， 采 用 神经 网 络 提 取 图 像 
特征 ， 并 利用 余弦 相似 度 比较 图 像 的 相似 度 。 通 过 
iE BOA (0.80) ETT CBS, ABR AH DLE ai FB 
值 的 图 像 。 通 过 上 述 处 理 得 到 3 862 张 图 像 ， 然 后 


视频 ， 每 段 视频 时 长 为 60~180s， 录 制 的 视频 格式 
为 MP4 (Moving Picture Experts Group 4) ,分辨 率 
像素 为 2 5600X1 440， 帧 率 设置 为 30 f/s。 在 不 同 高 
度 视频 的 示例 帧 如 图 1 所 示 。 


c. 示 例 帧 高 度 为 553 m d. 示 例 帧 高 度 为 65 m 


表 1 羊 群 小 目标 检测 实验 数据 集 分 布 
Table 1 Distribution of experimental datasets for sheep small 


target detection 


数据 集 类 型 ”图像 数量 / 张 ”无 人 机 采集 数据 / 张 ”公开 数据 / 张 
训练 集 2 214 1584 630 
验证 集 738 528 210 
测试 集 738 528 210 

总 计 3 690 2 640 1 050 


b. 公 开 数 据 
图 2 羊 群 数据 集 部 分 数据 示例 
Fig. 2 Example of data from the sheep dataset 


使 用 LabelImg 标 注 工具 对 图 像 进行 标注 ， 生 成 
包含 图 像 名 称 、 宽 高 及 目标 位 置 等 信息 的 XML 标 


签 文 件 。 数 据 标注 样 例如 图 3 所 示 。 


1.2 基于 CSD-YOLOv8s 的 密集 羊 只 检测 
模型 


YOLOv8 模 型 在 训练 推理 、 检 测 精 度 和 模型 部 
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a. 原始 标注 样 例 图 b. 标 注 样 例 展示 图 
图 3 羊 群 目标 检测 数据 标注 样 例 
Fig. 3 Sample data annotation for sheep target detection 
署 等 方面 有 显著 优势 ， 因 此 逐渐 应 用 于 各 种 检测 任 
务 。 在 进行 无 人 机 羊 只 检测 任务 时 ， 由 于 羊 只 目标 
尺寸 小 、 易 遮挡 和 聚集 等 问题 ， 导 致 漏 检 测 和 误 检 
测 严 重 。 因 此 ， 加 强 模 型 对 小 目标 羊 群 的 特征 学 习 
能 力 至 关 重 要 。 为 解决 上 述 问题 ， 通 过 改进 YO- 
LOv8s 模型 增强 对 无 人 机 羊 群 检测 的 小 目标 检测 能 
力 ， 并 在 发 生 遮 挡 和 聚集 时 提高 羊 只 的 检测 精度 ， 


Backbone 


减少 羊 只 误 检 测 和 漏 检测 数量 。 

首先 在 网 络 的 主干 部 分 构建 基于 原始 快速 空间 
金字 塔 池 化 网 络 的 跨 阶段 局 部 网 络 结构 (Cross 
Stage Partial, CSP) 提升 模型 对 小 目标 的 特征 提取 
能 力 。 其 次 ， 引 入 了 卷 积 注意 力 模块 ， 在 模型 的 第 
17、21 和 25 层 之 后 分 别 添加 了 卷 积 注意 力 模块 
(Convolutional Block Attention Module, CBAM) '"!, 
提高 网 络 对 不 同 通道 和 空间 位 置 的 关注 能 力 ， 使 网 
络 更 加 关注 羊 只 区 域 ， 从 而 改善 网 络 的 性 能 和 泛 化 
能 力 ， 进 一 步 提高 模型 对 密集 羊 只 的 检测 性 能 。 最 
后 ， 为 增加 模型 的 检测 速度 ， 提 升 模型 的 可 部 署 
性 ,构建 具有 可 变化 内 核 的 C2f_DS 模块 替换 YO- 
LOv8 的 C2f 卷 积 模块 ， 该 模块 具有 较 少 的 参数 和 更 
低 的 计算 复杂 度 ， 能 够 在 一 定 程 度 上 提高 模型 的 训 
练 速度 。 改 进 后 的 模型 命名 为 CSD-YOLOv8s 
(CSD 分 别 是 CBAM、SPPFCSPC 和 了 DSConv 的 首 字 
母 ) ， 其 结构 如 网 4 所 示 。 


Prediction 


图 4 CSD-YOLOv8s 羊 群 小 目标 检测 模型 结构 


Fig. 4 Model structure of the proposed CSD-YOLOv8s for sheep small target detection 


1.2.1 SPPFCSPC 增强 特征 提取 

在 羊 只 检测 任务 中 ， 由 于 背景 、 光 线 、 尺 度 变 
化 及 遮挡 聚集 等 因素 ， 对 小 目标 的 检测 能 力 和 检测 
速度 都 提出 更 高 的 要 求 。 随 着 网 络 层 数 的 加 深 ， 羊 
只 小 目标 的 特征 表示 逐渐 减弱 ， 造 成 漏 检 测 和 误 检 
测 。 在 现 阶段 研究 中 ,通常 采 用 空洞 金字 塔 池 化 
(Atrous Spatial Pyramid Pooling, ASPP) 、SimSPPF 
(Simplified Spatial Pyramid Pooling Fast) 、 SPPC- 


SPC (Spatial Pyramid Pooling-CSPC) 等 方法 对 
YOLOv8 中 的 SPPF (Spatial Pyramid Pooling Fast) 
模块 进行 改进 ， 上 述 四 种 网 络 结构 如 图 5 所 示 。 
ASPP 和 SimSPPF 两 种 改进 策略 保证 了 模型 检测 的 
实时 性 ， 应 用 SPPCSPC 模块 能 增强 模型 的 特征 融 
合 能 力 ， 提 高 模型 检测 精度 。 

上 述 方法 均 未 能 兼顾 检测 精度 和 检测 速度 的 需 
求 ， 在 实际 羊 群 检测 任务 中 无 法 达到 快速 、 精 确 的 
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ConvBNSILU 
k1,s1.p0.C512 


ConvBNSILU 
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SPPE SimSPPF 


a. SPPF 模 块 结构 图 


= 


b. SimSPPF 模块 结构 图 


=a 


ConvBNSILU 


Concat 
K3,51,p0,CS12 


全 ConvBNSILU 
Kist.p0,C512 
= 


图 6 改进 的 SPPFCSPC 结 构图 
Fig. 6 Structure diagram of the improved SPPFCSPC 


tO Ri k H (Efficient Channel Attention, ECA) 
等 。 在 羊 群 检 测 任务 中 ， 聚 集 的 羊 群 和 复杂 的 背景 
导致 羊 群 检测 过 程 中 有 效 信息 提取 困难 ， 影 响 模型 
的 羊 只 检测 结果 ， 为 解决 复杂 背景 和 不 同 光 照 条 件 


ASPP 


c. ASPP 模 块 结构 图 


SPPCSPC 
d. SPPCSPC 模块 结构 图 
图 5 不 同 SPPF 模 块 改进 方法 结构 图 
Fig. 5 Structure diagrams of different SPPF module 


improvement methods 


检测 。 为 解决 上 述 问题 ， 本 研究 在 网 络 的 主干 部 分 
采用 基于 原始 快速 空间 金字 塔 池 化 的 跨 阶 段 局 部 连 
接 网 络 结构 。 通 过 将 CSP 引 入 到 SPPF 中 增强 网 络 
的 特征 提取 能 力 ， 提 高 小 目标 及 目标 遮挡 情景 下 模 
型 精准 检测 的 能 力 。 改 进 的 SPPFCSPC 结构 如 图 6 
所 示 。SPPFCSPC 模 块 将 输入 特征 进行 拆 分 ， 部 分 
特征 进行 SPPF 结构 处 理 ， 通 过 在 多 个 卷 积 操作 过 
程 中 使 用 串 行 的 池 化 操作 增强 模型 对 不 同 尺度 的 处 
理 能 力 ， 其 余 特 征 则 直接 经 过 卷 积 操作 后 与 SPPF 
模块 的 输出 相 结 合 。 这 种 结构 将 输入 特征 与 输出 特 
征 进行 深度 结合 ， 全 面 整 合 网 络 的 深浅 层 特征 并 优 
化 了 梯度 变化 ， 牺 牲 较 小 的 速度 提高 模型 的 稳定 性 
和 准确 性 。 
1.2.2 ”注意 力 机 制 

当前 构建 模型 的 主要 注意 力 机 制 有 挤 压 注意 力 
模块 "(Squeeze-and-Excitation, SE), RIEA 
Bide?) (Coordinate Attention, CA) 及 高 效 通道 注 


下 羊 群 聚集 导致 漏 检 严 重 的 问题 ， 本 研究 在 网 络 的 
特征 提取 层 加 入 了 基于 空间 和 通道 两 方面 增强 特征 
Fi EAH AK AY CBAM 注意 力 机 制 。CBAM 注意 力 模 
块 由 通道 注意 力 模 块 (Channel Attention Module, 
CAM) 和 空间 注意 力 模 块 (Spatial Attention Mod- 
ule, SAM) 构成 ， 从 空间 和 通道 两 方面 提升 目标 的 
关键 特征 提取 能 力 。 在 无 人 机 羊 群 检测 时 ， 羊 群 周 
围 存在 大 量 干扰 检测 的 背景 信息 ，CBAM 通过 空间 
注意 力 抑 制 背 景 干扰 ， 使 网 络 更 专注 于 羊 只 目标 。 
由 于 羊 只 属于 小 目标 ， 特 征 信息 少 且 易 聚 集 和 遮挡， 
CBAM 通 过 学 习 特 征 图 的 通道 和 空间 注意 力 ， 自 适 
应 地 增强 重要 的 特征 表示 ， 更 加 关注 小 目标 的 特 
征 ， 提 升 网 络 对 局 部 和 全 局 信息 的 感知 能 力 。 从 而 
更 好 地 检测 羊 只 目标 ， 提 高 整体 检测 准确 率 。 
CBAM 模 块 整体 流程 如 图 7 所 示 。 
1.2.3 深度 可 分 离 卷 积 的 模型 轻 量 化 

深度 可 分 离 卷 积 (Depthwise Separable Convo- 
lution, DSConv) 由 深度 卷 积 (Depthwise Convolu- 
tion, DW) 和 逐 点 卷 积 (Pointwise Convolution, 
PW) 两 部 分 组 成 "“”。 通 过 引入 可 变化 内 核 优化 了 
DSConv 模 块 以 提高 运行 速度 ， 同 时 增加 模型 的 灵 
活性 以 适应 复杂 的 数据 。 改 进 后 的 C2f_DS 模块 能 
够 根据 输入 特征 自 适 应 地 选择 最 合适 的 卷 积 核 进行 
特征 提取 。 改 进 后 的 C2f_DS 模块 包括 深度 卷 积 
逐 点 卷 积 两 部 分 ， 前 者 通过 独立 卷 积 核对 每 个 通道 
卷 积 ， 并 将 输出 进行 堆 受 以 减少 参数 ， 后 者 则 用 相 
应 的 卷 积 核对 深度 卷 积 输出 进行 通道 混合 生成 最 终 
特征 图 。 

在 羊 只 个 体检 测 中 ， 需 要 较 小 的 模型 及 较 高 的 
推理 速度 以 满足 实时 性 和 易 部 署 的 要 求 。 因 此 本 研 
FTE YOLOv8s 中 构建 C2f_DS 模块 代替 标准 卷 积 ， 
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图 7 CBAM 模块 总 体 流 程 图 
Fig. 7 General flowchart of CBAM module 


降低 模型 大 小 和 计算 量 ， 提 高 模型 的 检测 速度 。 当 
输入 特征 维度 为 HXWX3， 输 出 特征 维度 为 HX 
WX4 时 ,深度 可 分 离 卷 积 的 过 程 如 图 8 所 示 。 


输入 ERE 特征 层 GRE 特征 层 


| 深度 卷 积 | siti 
注 : 输入 特征 维度 为 HXWX3, 输 出 特征 维度 为 HXWX4。 
图 8 深度 可 分 离 卷 积 过 程 图 
Fig. 8 DSConv process diagram 

1.3 评价 指标 

为 了 描述 模型 的 检测 效果 ， 采 用 精度 (Preci- 
sion, P) 、 全 类 平均 精度 (mean Average Precision, 
mAP), PHW (Frames Per Second, FPS ) 、 人 参数 
量 (Params) 以 及 计算 量 (FLOPs) 作为 目标 检测 
算法 的 评价 指标 。FPS 表示 模型 1 s 内 处 理 的 图 像 数 
Ht. Params 用 于 衡量 模型 的 复杂 度 。FLOPs 用 于 衡 
量 模型 的 计算 量 。AP 值 基于 精度 召回 (Recall, R) 
曲线 ,计算 该 曲线 下 的 面积 并 求 均值 。mAP 考 虑 了 
检测 算法 的 召回 率 和 准确 率 ， 将 每 类 的 AP 值 进行 
平均 。AP 和 mAP 计 算 如 公式 (1) 和 公式 (2) 所 
AN; P、R 计 算 如 公式 (3) 和 公式 (4) 所 示 。 在 
羊 群 检测 任务 中 ， 四 个 核心 评价 指标 为 : TP (成 功 
预测 为 羊 的 数量 ) TN (成 功 预 测 为 非 羊 的 数量 )、 
FP (错误 预测 为 羊 的 数量 )、FN (错误 预测 非 羊 的 
数量 )。 


1 

AP = | P(R)dR (1) 
0 

mAP = 二 六 AP (2) 

j=l 
TP 
Z-n X 
P = z5 X 100% (3) 
R=— Œ x 100% (4) 


= "TP + EN 


本 研究 中 指定 评价 指标 的 优先 级 顺序 为 P、 
mAP、FPS、FLOPs、Params， 以 便于 对 模型 进行 
评估 。 


2 结果 分 析 
2.1 实验 环境 及 参数 设置 


本 实验 所 用 的 硬件 设备 及 参数 如 表 2 所 示 。 在 
模型 训练 阶段 ， 使 用 2 214 张 图 像 作为 训练 集 ， 使 
用 738 张 图 像 作 为 验证 集 来 评估 模型 性 能 并 进行 调 
整 ， 从 而 获得 最 佳 的 羊 只 目标 检测 模型 。 为 适应 模 
型 的 输入 ， 将 原始 图 像 像 素 调整 为 640X640、 批 量 
大 小 (Batch Size) 设置 为 32， 选 择 SGD (Stochas- 
tic Gradient Descent) 作为 优化 器 ， 动 量 (Momen- 
tum) 设 定 为 0.937， 初 始 学 习 率 为 0.001。 在 上 述 
硬件 和 参数 设置 下 ， 进 行 了 200 个 epochs 的 模型 
训练 。 

表 2 无 人 机 羊 群 目标 检测 实验 硬件 参数 配置 


Table 2 Hardware parameter configuration for UAV sheep 


target detection experiment 


硬件 配置 参数 
CPU Intel(R) Core(TM) i9-9900K CPU@3.6 GHz 
GPU NVIDIA Quadro P6000 

内 存 容量 32 G 

操作 系统 Windows 10 
发 工具 PyCharm2020.1.1 

CUDA 版 本 10.2 
深度 学 习 框 架 PyTorch 1.10.0 


2.2 消融 测试 性 能 

为 验证 各 部 分 改进 方法 的 有 效 性 ， 本 研究 设计 
消融 实验 验证 SPPFCSPC 模块 CBAM 及 C2f_DS 
模块 对 整体 网 络 的 影响 。 在 同一 数据 集 和 软 硬 件 设 
备 下 ， 将 不 同 模块 分 别 加 入 YOLOv8s 模型 中 ， 评 
估 各 模块 对 网 络 性 能 的 影响 ,评估 结果 如 表 3 
所 示 。 
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表 3 无 人 机 羊 群 目标 检测 消融 实验 
Table 3 UAV sheep target detectionAblation experiment 
模型 名 称 P/% mAP/% FLOPs/G FPS/(f/s) Params/M 
YOLOv8s 93.0 91.2 28.6 105 11.13 
YOLOv8s+SPPFCSPC 94.6 92.6 33.6 93 17.49 
YOLOv8s+CBAM 94.1 92.1 28.7 88 11.17 
YOLOv8s+C2f_DS 92.8 91.2 24.7 107 10.31 
YOLOv8s+SPPFCSPC+CBAM 95.2 93.1 33.9 82 17.61 
YOLOv8s+SPPFCSPC+C2f_DS 94.5 92.4 29.9 95 16.73 
YOLOv8s+CBAM+C2f_DS 94.2 92..0 24.8 90 10.36 
CSD-YOLOv8s( 本 研究 ) 95.2 93.1 29.9 87 16.68 
从 表 3 中 可 知 ， 在 YOLOv8s 模 型 上 将 SPPFC- 2.3 对 比 实验 结果 分 析 
EF FR 44 H EY FE 4% 
SPC 替换 原 模型 的 SPPF 模块 后 ， 模 型 的 P 值 和 231 不 同 模型 对 比 


mAP 值 分 别提 高 了 1.6 和 1.4 个 百分点 ， 可 见 采 用 跨 
阶段 特征 连接 结构 能 够 充分 保留 不 同 阶段 的 特征 信 
息 ， 大 幅度 提升 了 模型 的 精度 。 添 加 CBAM 注意 力 
机 制 后 与 原始 模型 相 比 ，P 和 mAP 分 别提 高 了 1.1 
和 0.9 个 百分点 ,体现 了 CBAM 注意 力 机 制 在 空间 
上 对 无 用 的 背景 信息 的 抑制 ， 在 通道 上 提高 对 羊 群 
小 目标 的 聚焦 能 力 ， 与 此 同时 ，FPS 减少 了 17 fis, 
参数 量 增加 了 0.04 M，FLOPs 增 加 了 0.1G。 使 用 
C2f_DS 模块 与 原 模型 相 比 ，P 值 降低 了 0.2%, 但 
FPS 提高 了 2 fs 有 是 FLOPs 减 少 了 3.9 G， 有 效 地 证 
明了 本 人 研究 提出 的 具有 可 变化 内 核 的 C2f_DS 模块 
能 够 有 效 提 取 特 征 信 息 的 同时 降低 了 模型 的 计算 量 
和 参数 量 ， 提 高 了 模型 的 检测 速度 。 在 加 入 SPPF- 
CSPC 与 CBAM 注意 力 机 制 后 ,模型 的 检测 精度 
提升 了 2.2 个 百分点 ,参数 量 和 计算 量 分 别提 升 了 
5.3 G 和 6.48 M， 与 此 同时 ，FPS 下降 了 23 fis, 在 
加 入 C2f_DS 模 块 后 ， 模 型 的 精度 值 保持 不 变 , 但 
降低 了 计算 量 和 参数 量 增加 了 模型 的 推理 速度 。 在 
C2f_DS 模块 分 别 加 入 SPPFCSPC 和 CBAM 注意 力 
机 制 后 ， 对 模型 的 精度 影响 不 大 ， 但 降低 了 模型 的 
参数 量 和 计算 量 ， 并 提高 了 模型 的 检测 速度 ,证 明 
T C2f_DS 模块 在 提高 计算 效率 上 的 有 效 性 。 本 研 
究 提 出 的 CSD-YOLOv8s 模型 在 无 人 机 对 地 羊 群 目 
标 检 测 任 务 中 P 值 达到 95.2%, mAP 达到 93.1%. 
与 原始 的 YOLOv8s 模 型 相 比 ，P 和 mAP 分 别提 高 
了 2.2 和 1.9 个 百分点 ， 同 时 FPS 为 87 f/s, Params 
为 16.68 M, FLOPs 为 29.9G， 能 够 在 后 期 将 其 部 
署 在 无 人 机 的 机 载 电 脑 上 ， 为 实现 目标 的 实时 检测 
提供 参考 。 


选取 不 同 模型 ， 验 证 和 比较 所 提出 的 方法 对 无 
人 机 对 地 小 目标 检测 的 性 能 。 选 取 单 阶段 目标 检测 
算法 SSD' (Single Shot MultiBox Detector) 和 
RetinaNet ‘7! 模型 ， 双 阶段 Faster R-CNN "模型 ， 
YOLOv5s 以 及 YOLOv8s 模型 与 CSD-YOLOv8s $ 
型 进行 性 能 对 比 实验 ， 结 果 如 图 9 所 示 。 

不 同 模型 在 测试 集 上 的 mAP、FPS 和 Model 
size 结 果 如 表 4 所 示 。 本 研究 提出 模型 CSD-YO- 
LOv8s 与 Faster R-CNN 模 型 相 比 ，mAP 提 高 了 28.5 
个 百分点 , 平均 帧 率 增加 了 69 f/s， 模 型 大 小 减少 
了 279 M; 与 RetinaNet、SSD 模型 相 比 ，mAP 提高 
了 16.9、34.3 个 百分点 ，FPS 提 高 了 69f/s、28 f/s; 模 
型 大 小 分 别 减少 了 210 M 和 65 M。 与 YOLOv5s 以 
及 YOLOv8s 模 型 相 比 ，FPS 有 所 降低 ，Model size 
有 所 增长 ， 但 mAP 提 高 了 2.6 和 1.9 个 百分点 。 由 
表 中 可 知 ，CSD-YOLOv8s 能 够 大 幅度 地 提高 检测 
精度 的 同时 保证 模型 大 小 和 检测 速度 的 均衡 ， 检 测 
效果 优 于 SSD 、REtinaNet、 经 典 的 Faster R-CNN 
以 及 比较 流行 的 YOLO 系列 算法 ， 可 为 高 空 实时 检 
测 羊 群 提供 参考 。 

2.3.2 不 同 注意 力 机 制 对 比 

注意 力 机 制 能 使 模型 更 专注 感 兴趣 的 目标 ， 提 
高 权重 聚焦 重要 信息 。 通 过 对 比 不 同 注意 力 机 制 ， 
匹配 羊 群 检测 任务 中 最 佳 的 注意 力 机 制 设 计 方 案 ， 
表 5 对 几 种 常用 注意 力 机 制 实 验 结果 进行 了 统计 ， 
重点 关注 其 准确 率 等 参数 。 

本 研究 通过 引入 CAM 和 SAM 来 提高 模型 提取 
寺 征 的 能 力 ， 以 适应 复杂 的 环境 。 实 验 结果 表明 ， 
CBAM 注意 力 机 制 对 于 提升 模型 的 准确 率 最 为 明 
显 ， 与 未 使 用 注意 力 机 制 相 比 ， 参 数量 有 所 增长 ， 
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a. Faster R-CNN 检 测 结果 图 
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d. SSD 检 测 结果 图 
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b. RetinaNet 检 测 结果 图 
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e. YOLOv8s 检测 结果 图 
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c.YOLOvSs 检 测 结果 图 


f. CSD-YOLOv8s 检 测 结 
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图 9 无 人 机 羊 群 检测 同 模型 检测 结果 
Fig. 9 UAV flock detection with modeling results 


表 4 不 同 网 络 模型 的 羊 群 检测 实验 结果 
Table 4 Experimental results of sheep detection with different 


network models 


Model mAP/% FPS/(f/s) Model size/M 
Faster R-CNN 64.6 18 314 
REtinaNet 76.2 18 245 
YOLOv5s 90.5 115 14 
SSD 58.8 59 100 
YOLOvé8s 91.2 105 22 
CSD-YOLOv8s 93.1 87 35 


RS 不 同 注意 力 机 制 实验 对 比 结果 
Table 5 Experimental comparison of different 


attention mechanisms 


aca PI% mAP/%  FLOPs/G FPS/(f/s) 

== 93.0 91.2 28.6 105 

SE 93.7 91.5 28.7 96 
SimAM 93.2 91.2 28.6 100 
CA 93.2 91.4 28.7 96 
Shuffle 92.8 91.1 28.6 116 
ECA 93.3 91.2 28.7 101 
CBAM 94.1 92.1 28.7 88 

注 :“ 一 一 ”代表 未 加 注意 力 机 制 的 实验 结果 。 


但 是 P 值 提高 了 1.1 个 百分点 ，mAP 增 加 了 0.9 个 百 
分 点 。 与 其 他 注意 力 机 制 相 比 ，CBAM 注意 力 机 制 
在 结构 上 增加 了 空间 注意 力 模 块 ， 虽然 参 数量 有 所 
增长 ,但 是 显著 增强 了 模型 从 空间 和 通道 两 方面 提 
取 羊 只 特征 的 能 力 ， 在 一 定 程度 上 提高 了 检测 精 
度 。 与 SE 相 比 ，CBAM 的 CAM 结 构 通 过 增加 一 个 


此 在 复杂 背景 及 光照 条 件 下 ， 增 强 了 对 羊 只 的 检测 
精度 ， 并 减少 了 误 检 测 。 在 羊 群 检测 任务 中 ， 全 局 
言 息 对 于 正确 定位 和 检测 羊 只 至 关 重 要 ， 而 Si- 
ee 
的 相似 度 ， 忽 略 了 全 局 信息 ， 因 此 影响 了 对 羊 只 
We ee E a a a 
则 主要 关注 不 同 通道 之 间 的 关系 而 忽略 了 空间 信 
息 ， 导 致 网 络 对 小 目标 羊 只 在 图 像 中 的 不 同位 置 和 
尺度 的 适应 能 力 不 足 。Shuffle ”注意 力 机 制 基于 
通道 随机 重 排 。 在 羊 群 检测 任务 中 ， 即 使 很 少 的 通 
道 也 会 包含 大 量 的 羊 只 信息 ， 而 随机 重 排 使 得 这 些 
通道 被 打 乱 或 者 忽略 ， 从 而 影响 网 络 对 于 羊 只 的 检 
WEH o 

2.3.3 改进 SPPF 模 块 的 试验 分 析 

在 YOLOv8 中 ，SPPF 模块 是 一 种 关键 的 特征 
提取 结构 ， 其 主要 目的 是 增强 目标 检测 模型 对 不 同 
尺度 目标 的 感知 能 力 。 本 研究 为 验证 改进 后 的 SP- 
PFCSPC 特征 提取 模块 对 无 人 机 羊 群 检测 任务 中 的 

高 效 性 ， 对 现 有 的 SPPF 改 进 方法 进行 了 对 比 验 证 ， 
实验 结果 如 表 6 所 示 。 

本 研究 将 CSP 跨 阶段 局 部 网 络 连接 引入 到 SP- 
PF 模块 中 ,与 原 模型 相 比 ，P 值 和 mAP 分 别提 高 
了 1.6 和 1.4 个 百分点 。 改 进 后 的 SPPFCSPC 模 块 将 
原始 特征 与 SPPF 模 块 输出 特征 相 结合 ， 保 留 了 更 
多 的 特征 信息 ， 虽 然 增 加 了 模型 的 参数 量 ， 但 提高 
了 小 目标 的 特征 提取 能 力 ， 特 别 是 在 羊 只 密集 和 谈 
挡 严 重 的 情况 下 ， 增加 了 羊 只 1 检测 的 准确 性 ， 降 低 


并 行 的 最 大 池 化 层 ， 得 到 更 为 丰富 的 特征 信息 ， 因 


了 羊 只 目标 的 漏 检 和 误 检 率 。ASPP 模 块 是 一 种 基 
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#6 不 同 SPPF 模块 实验 对 比 结果 


Table 6 Experimental pairwise comparisonresults of different 


表 7 公共 数据 集 PASCAL VOC 2007 对 比 实验 结果 


Table 7 The comparison experiment results of public dataset 


SPPF modules PASCAL VOC 2007 
Module P/% mAP/% FLOPs/G FPS/(f/s) Params/M Model PI% mAP/% 
SPPF 93.0 91.2 28.6 105 11.13 YOLOv8s(all) 0.763 0.702 
ASPP 93.3 91.0 35.0 84 19.38 YOLOv8s(sheep ) 0.722 0.652 
SimSPPF 93.0 912 28.6 106 11.14 CSD-YOLOv8s(all) 0.784 0.710 
SPPCSPC 94.6 92.6 33.6 90 17.56 CSD-YOLOv8s(sheep) 0.813 0.662 
SPPFCSPC 94.6 92.6 33.6 93 17.56 注 : all 代表 数据 集中 所 有 类 别 ; sheep 表示 数据 集中 “FR 类 别 。 


于 较 大 的 感受 野 用 于 处 理 不 同 尺 度 目标 的 卷 积 神经 
网 络 模块 ， 在 羊 群 检测 中 由 于 目标 尺寸 小 ， 且 羊 群 
遮挡 和 聚集 严重 从 而 导致 检测 效果 不 佳 。SimSPPF 
模块 替换 了 SPPF 模 块 的 激活 函数 ， 增 加 了 速度 ， 
但 特征 提取 能 力 有 限 ， 在 羊 只 检测 任务 中 无 法 有 效 
捕捉 到 羊 只 目标 。SPPCSPC 模块 在 YOLOv7 中 被 
提出 2 所， 提高 了 模型 的 检测 性 能 ， 但 使 用 多 个 并 
联结 构 的 池 化 操作 增加 了 模型 的 重复 运算 减 小 了 模 
型 的 运算 速度 ， 因 此 存在 计算 效率 较 低 、 实 时 性 不 
足 的 问题 。 与 其 他 改进 方法 相 比 ， 本 研究 的 改进 思 
路 充分 考虑 了 网 络 的 不 同 层 次 特征 ， 通 过 融合 深浅 
层 特征 提高 了 模型 的 学 习 能 力 。 实 验 结果 表明 ， 使 
用 SPPFCSPC 方法 能 够 提升 精度 值 并 将 FPS 和 
FLOPs 保持 在 不 错 的 水 平 以 满足 实时 性 的 要 求 。 
2.3.4 公开 数据 集 验证 

为 了 验证 CSD-YOLOv8s 的 实用 性 和 泛 化 能 
采用 CSD-YOLOv8s 模 型 与 YOLOv8s 模 型 在 公共 数 
据 集 PASCAL VOC 2007 上 进行 对 比 实验 ( 表 7)。 
PASCAL VOC 2007 数据 集 包 含 交 通 工 具 、 人 及 动 
物 等 20 种 不 同类 别 的 图 像 数据 并 经 过 详细 地 标注 ， 
应 用 于 计算 机 视 党 领域 进行 算法 评估 。 结 果 表 明 ， 
采用 CSD-YOLOv8s 模 型 与 YOLOv8s 模 型 相 比 ， 所 
有 类 别 (all) 的 P 值 提高 了 2.1 个 百分点 ，mAP 增 
加 了 0.8 个 百分点 。 其 中 羊 (sheep) 的 检测 精度 有 
大 幅度 的 提升 ，P 值 提高 了 9.7 个 百分点 ，mAP 提 
高 了 1.1 个 百分点 。 由 此 可 见 ， 本 研究 通过 结合 三 
种 改进 策略 所 提出 的 模型 表现 出 较 好 的 泛 化 能 
能 够 适用 各 种 场景 下 的 物体 检测 任务 。 尤 其 是 在 农 
业 环 境 的 羊 只 检测 领域 ， 该 模型 表现 了 卓越 的 性 
能 ， 为 羊 只 检测 任务 提供 了 一 种 高 效 的 方法 。 


3 ”讨论 与 结论 
3.1 讨论 


本 研究 基于 YOLOv8s 提出 了 一 种 高 精度 、 实 
时 性 的 CSD-YOLOv8s 模型， 解决 了 在 复杂 背景 


光照 条 件 下 无 人 机 对 地 羊 群 小 目标 检测 过 程 中 存在 
漏 检 和 误 检 严重 的 问题 。 在 羊 群 小 目标 检测 过 程 
中 ， 发 现在 距离 较 远 、 羊 群 密集 及 谈 挡 情况 下 检测 
效果 不 佳 ， 为 此 构建 了 跨 阶 段 特征 融合 的 网 络 结 
构 ， 充 分 考虑 模型 深浅 层 特征 ， 提 升 对 遮挡 目标 的 
检测 能 力 。 融 入 注意 力 机 制 ， 关 注 模型 的 全 局 信息 
提升 对 小 目标 的 检测 能 力 ， 并 使 用 轻 量 化 卷 积 
C2f_DS 模 块 保证 模型 的 检测 速度 。 

CSD-YOLOv8s 模型 在 羊 群 密集 和 遮挡 情况 下 
实现 了 很 好 的 检测 ， 但 是 与 YOLOv8 模型 相 比 ， 
FPS 指标 有 所 降低 。 这 主要 是 跨 阶 段 特 征 融合 需要 
进行 更 多 的 卷 积 操作 ， 增 加 了 模型 的 计算 量 和 参 
数 ， 而 融入 注意 力 机 制 不 仅 增加 了 内 存 占 用 ， 还 提 
高 了 模型 的 计算 复杂 度 ， 因 此 模型 推理 需要 更 多 的 
计算 资源 ， 增 加 了 推理 时 间 。 在 实际 应 用 中 ， 可 以 
通过 知识 茸 馏 等 方法 减少 模型 的 大 小 和 计算 量 从 而 
在 保证 精度 的 同时 缩短 推理 时 间 。 此 外 ， 在 将 模型 
应 用 到 如 岩石 较 多 的 特殊 环境 时 ， 可 能 会 增加 误 检 
测 。 这 是 由 于 本 研究 的 羊 只 数据 主要 集中 在 白色 或 
灰色 ， 和 牧草 旺盛 时 期 的 绿色 背景 颜色 对 比 鲜 明 ， 
从 而 在 一 定 程度 上 提高 了 检测 的 准确 性 。 这 可 以 考 
虑 增加 特殊 环境 的 数据 或 利用 图 像 增强 技术 生成 伪 
图 像 等 方法 解决 。 

除了 对 上 述 问 题 进 行 探 索 ， 未 来 仍 有 需 改 进 的 
方面 。 首 先 ， 通 过 增加 不 同 国家 和 地 区 牧场 的 羊 群 
数据 提高 模型 的 检测 能 力 ， 扩 展 模型 的 应 用 场景 。 
其 次 ， 增 加 牧区 里 其 他 放牧 种 类 如 牛 、 马 等 以 探究 
物体 检测 领域 中 复杂 的 长 尾 对 象 检测 问题 ， 扩 展 模 
型 的 应 用 范围 。 最 后 ， 为 进一步 提高 应 用 ， 实 现 牧 
场 的 智能 化 放牧 ， 将 模型 部 署 到 无 人 机 的 机 载 电脑 
上 ， 通 过 无 人 机 实现 牧场 放牧 牲畜 的 自动 检测 和 由 
踪 ， 更 好 地 将 深度 学 习 融 和 遥感， 服务 于 畜牧 业 。 
3.2 结论 


本 研究 针对 无 人 机 对 地 目标 检测 中 存在 目标 
小 ， 密 集 以 及 遮挡 严重 导致 漏 检 和 误 检 的 问题 ， 构 
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建 了 基于 无 人 机 图 像 的 羊 群 数据 集 ， 提 出 一 种 用 于 
IN Nt a gel E 
CSD-YOLOv8s， 获 得 较 好 的 检测 结果 。 首 先 ， 
We 
间 人 金字塔 池 化 网 络 输出 相 结合 的 SPPFCSPC 模 块 并 
融入 CBAM 注 意 力 机 制 ， 增 强 模 型 的 关键 特征 提 
取 能 力 。 其 次 ， 采 用 C2f_DS 轻 量化 卷 积 模块 缩减 
care eager nigra ones a soma lineage 
行 实验 ， 结 果 表 明 ， 本 研究 提出 的 模型 对 羊 群 个 
体 识 别 的 mAP 为 93.1%，FPS 为 87 f/s, Params 为 
16.68 M, FLOPs 为 29.9 G, 

改进 后 的 模型 在 无 人 机 羊 群 检测 任务 中 对 密集 
及 让 挡 下 的 羊 只 检测 精度 有 不 错 的 效果 提升 ， 
PASCAL VOC 2007 公开 数 据 集 验 证 ， 本 研究 提出 
的 检测 模型 对 包含 动物 、 交 通 工 具 等 20 种 类 别 物 
体 的 检测 精度 均 有 所 提高 ， 特 别 是 在 羊 只 检测 方 
面 ， 检 测 精 度 提 升 9.7 个 百分点 。 本 研究 提出 的 模 
型 有 效 地 解决 了 无 人 机 检测 任务 中 羊 群 漏 检 和 误 检 
现象 严重 的 问题 ， 为 天 然 牧 场 无 人 机 视角 下 羊 群 的 
检测 提供 了 一 种 有 效 的 检测 方法 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公 
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Abstract: 

[Objective] The monitoring of livestock grazing in natural pastures is a key aspect of the transformation and upgrading of large-scale 
breeding farms. In order to meet the demand for large-scale farms to achieve accurate real-time detection of a large number of sheep, a 
high-precision and easy-to-deploy small-target detection model: CSD-YOLOv8s was proposed to realize the real-time detection of 
small-targeted individual sheep under the high-altitude view of the unmanned aerial vehicle (UAV). 

[Methods] Firstly, a UAV was used to acquire video data of sheep in natural grassland pastures with different backgrounds and lighting 
conditions, and together with some public datasets downloaded formed the original image data. The sheep detection dataset was gener- 
ated through data cleaning and labeling. Secondly, in order to solve the difficult problem of sheep detection caused by dense flocks 
and mutual occlusion, the SPPFCSPC module was constructed with cross-stage local connection based on the you only look once 
(YOLO)v8 model, which combined the original features with the output features of the fast spatial pyramid pooling network, fully re- 
tained the feature information at different stages of the model, and effectively solved the problem of small targets and serious occlu- 
sion of the sheep, and improved the detection performance of the model for small sheep targets. In the Neck part of the model, the con- 
volutional block attention module (CBAM) convolutional attention module was introduced to enhance the feature information capture 
based on both spatial and channel aspects, suppressing the background information spatially and focusing on the sheep target in the 
channel, enhancing the network's anti-jamming ability from both channel and spatial dimensions, and improving the model's detection 
performance of multi-scale sheep under complex backgrounds and different illumination conditions. Finally, in order to improve the 
real-time and deploy ability of the model, the standard convolution of the Neck network was changed to a lightweight convolutional 
C2f_DS module with a changeable kernel, which was able to adaptively select the corresponding convolutional kernel for feature ex- 
traction according to the input features, and solved the problem of input scale change in the process of sheep detection in a more flexi- 
ble way, and at the same time, the number of parameters of the model was reduced and the speed of the model was improved. 

[Results and Discussions] The improved CSD-YOLOv8s model exhibited excellent performance in the sheep detection task. Compared 
with YOLO, Faster R-CNN and other classical network models, the improved CSD-YOLOv8s model had higher detection accuracy 
and frames per second (FPS) of 87 f/s in the flock detection task with comparable detection speed and model size. Compared with the 
YOLOv8s model, Precision was improved from 93.0% to 95.2%, mAP was improved from 91.2% to 93.1%, and it had strong robust- 
ness to sheep targets with different degree of occlusion and different scales, which effectively solved the serious problems of missed 
and misdetection of sheep in the grassland pasture UAV-on-ground sheep detection task due to the small sheep targets, large back- 
ground noise, and high degree of densification. misdetection serious problems. Validated by the PASCAL VOC 2007 open dataset, the 
CSD-YOLOv8s model proposed in this study improved the detection accuracy of 20 different objects, including transportation vehi- 
cles, animals, etc., especially in sheep detection, the detection accuracy was improved by 9.7%. 

[Conclusions] This study establishes a sheep dataset based on drone images and proposes a model called CSD- YOLOv8s for detecting 
grazing sheep in natural grasslands. The model addresses the serious issues of missed detections and false alarms in sheep detection 
under complex backgrounds and lighting conditions, enabling more accurate detection of grazing livestock in drone images. It 
achieves precise detection of targets with varying degrees of clustering and occlusion and possesses good real-time performance. This 
model provides an effective detection method for detecting sheep herds from the perspective of drones in natural pastures and offers 
technical support for large-scale livestock detection in breeding farms, with wide-ranging potential applications. 
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